استفاده از ویژگی های پی در پی برای بهبود نرخ بازشناسی گفتار و آزمون روش روی یک پایگاه داده محدود فارسی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - دانشکده مهندسی برق و کامپیوتر
نویسنده حمیدرضا ارومیه
استاد راهنما بابک ناصر شریف
سال انتشار 1392

چکیده

در بازشناسی گفتار ویژگیهای مختلفی مورد استفاده قرار گرفته اند که موفقترین آنها ضرایب مل کپستروم هستند. این ویژگیها در شرایط نویزی معمولا عملکرد مطلوبی ندارند و تمایز کافی را نیز میان واحدهای بازشناسی گفتاری فراهم نمی کنند. از این رو تحقیقات متعددی درباره افزایش کارآیی ویژگیها در شرایط نویزی و همینطور تمیز صورت گرفته است. یکی از این روشها استفاده از ویژگیهای پی در پی است. در این روش به صورت کلاسیک ابتدا ویژگیهای متداول گفتاری برای آموزش یک شبکه عصبی پرسپترون چند لایه بکار می روند که سبب افزایش متمایز سازی ویژگیها می شود و سپس خروجیهای شبکه عصبی که از جنس احتمال پسین هستند به عنوان ویژگی در اختیار یک سیستم بازشناسی گفتار مبتنی بر مدل مخفی مارکف قرار می گیرد. در پایان نامه حاضر، دو روش برای اصلاح روند استخراج ویژگی پی در پی پیشنهاد شده است. در روش اول، با توجه به اینکه شبکه عصبی احتمالاتی و شبکه عصبی تابع شعاعی پایه را می توان به عنوان یک تبدیل متمایز ساز غیر خطی در نظر گرفت، پیشنهاد شده است که به جای شبکه عصبی کلاسیک پرسپترون در روند استخراج ویژگی پی در پی، از دو شبکه عصبی مذکور استفاده شود. در روش دوم، با هدف غلبه بر ضعف الگوریتم انتشار به عقب در یادگیری پرسپترون چندلایه و همچنین یادگیری بهتر روابط میان ویژگیها و تخمین بهتر احتمالات، از شبکه باور عمیق به جای شبکه عصبی پرسپترون چندلایه برای استخراج ویژگیهای پی در پی استفاده شده است. نتایج بازشناسی بر روی دادگان گفتاریaurora2 و نیز یک دادگان مشتمل بر کلمات مجزای فارسی نشان می دهد که بکار گیری شبکه های عصبی تابع شعاعی پایه و نیز شبکه عصبی احتمالاتی در استخراج ویژگیهای پی در پی بهتر از پرسپترون چند لایه عمل می کنند. به علاوه، نتایج حاکی از آن هستند که بکارگیری شبکه باور عمیق در استخراج ویژگیهای پی در پی نسبت به شبکه های عصبی مذکور سبب بهبود قابل توجه نرخ بازشناسی گفتار می شود.

منابع مشابه

بهبود نرخ بازشناسی گفتار در شرایط نویزی با استفاده از روش های غیرخطی تبدیل ویژگی

یکی از مراحل اصلی در روند بازشناسی گفتار، استخراج ویژگی ها می باشد. در حقیقت ویژگی های مربوط به نمونه های هر کلاس باید بگونه ای از کلاس های دیگر متمایز شده باشند که سیستم بازشناسی گفتار در شرایط مختلف مانند نویز نیز عملکرد مناسبی از خود نشان دهد. تبدیل ویژگی می تواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. روش های تبدیل ویژگی را می توان به دو گروه خطی و غیرخطی تقسیم نمود. و...

15 صفحه اول

بهبود نرخ بازشناسی ارقام دست نویس فارسی با استفاده از روش های ادغام در سطح ویژگی

هدف یک سیستم بازشناسی الگو، قرار دادن الگوها با کمترین خطا، در کلاس مربوط به خودشان است. بازشناسی ارقام دستنویس فارسی یکی از مسائل مهم در حوزه بازشناسی الگو می باشد. تحقیقات در این زمینه چندین دهه است که آغاز شده است و هنوز هم در حال تحول می باشد. در سیستم های اولیه بازشناسی الگو از یک ویژگی و یک طبقه بند استفاده می شد. این سیستمها برای بازشناسی الگوهای پیچیده و کاربردهای زمان حقیقی مشکل داشتند...

15 صفحه اول

طراحی و ارزیابی رمز کننده های پی در پی و معرفی یک ساختار جدید

رمز کننده های پی در پی رمز کننده هایی هستند که در آنها برای تولید یک متن رمز شده یک دنباله دو دویی به نام کلید اجرایی با دنباله دو دویی متن اصلی به هنگ دو جمع می شود جهت مصون ماندن رمز کننده از حملات رمز نگاری کلید اجرایی و مولد آن باید خواص ویژه ای را دارا باشد در این مقاله مهمترین این ویژگی ها مانند دوره تناوب پیچیدگی خطی خواص آماری مصونیت از همبستگی و معیار بهمنی مورد بحث قرار می گیرند سپس ب...

متن کامل

بهبود نرخ تشخیص احساس از روی گفتار با استفاده از تفکیک جنسیتی

تشخیص احساس از روی سیگنال گفتار یکی از شاخه‌های نسبتاً جدید در پردازش گفتار می‌باشد که می‌تواند در تعامل انسان و روبات نقش مهمی ایفا کند. در این مقاله ضمن استفاده از دو نوع ویژگی طیفی جدید به منظور افزایش نرخ بازشناسی به بررسی تاثیر جنسیت گویندگان در تشخیص احساس پرداخته شده است. ویژگی‌های یاد شده با استفاده از روش‌های پردازش تصویر، از تصویر طیف‌نگاره سیگنال گفتار استخراج می‌شوند . در این تحقیق ب...

متن کامل

روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی

بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد...

متن کامل

جستجویی در پی روش نظام مند برای مدیریت (1)

درآمد: در حدود هفتصد و پنجاه سال پیش " دان دوی " ، که تاریخ خط چین را تدوین کرد ، در پاسخ به کسانی که او را برای " دست یازیدن " به چنان کاری شگرف ، آماج " اما ها " و " آیاها " ... قرار دادند نوشت : " من به کاستیهای کارم معترفم اما اگر می باید چندان تامل کنم که خامیهای کارم همه پخته و کاستیهای آن ، همه برطرف شود نگارش این کتاب هرگز به پایان نمی رسید ". نگارنده اعتراف " دان دوی " را سپر خود...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی - دانشکده مهندسی برق و کامپیوتر

کلمات کلیدی

بازشناسی گفتار ویژگیهای پی در پی پرسپترون پایگاه داده ها شبکه عصبی روش احتمالاتی

میزبانی شده توسط پلتفرم ابری doprax.com